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摘要 :【 目 的] 利用 已 获得 的 纳米 孔 长 读 段 测序 数据 完善 现 有 的 蜜蜂 球 引 菌 Ascosphaera. apis 参考 基 
因 组 注释 信息 ,并 对 未 注释 的 新 基因 和 新 转录 本 进行 鉴定 和 功能 注释 。【 方 法】 基于 已 获得 的 纳米 
孔 长 读 段 测序 数据 ,采用 gffcompare 软件 将 蜜蜂 球 宫 菌 全 长 转录 本 与 参考 基因 组 注释 的 转录 本 进 
行 比较 ,进而 对 参考 基因 组 注释 基因 的 非 翻 译 区 (untranslated region, UTR) 进行 延长 。 利 用 
TransDecoder 软件 对 蜜蜂 球 综 菌 基因 的 开放 阅读 框 (open reading frame, ORF) 及 相应 的 氨基 酸 序 列 
进行 预测 。 通 过 MISA 软件 发 掘 长度 在 500 bp 以 上 的 全 长 转录 本 的 SSR 位 点 。 通 过 Blast 工具 将 
鉴定 到 的 新 基因 和 新 转录 本 比 对 Nr, KOG, eggNOG, Swiss-Prot, Pfam, GO 和 KEGG 数据 库 进 行 功 
能 注释 。【 结果 】 共 对 蜜蜂 球 淖 菌 的 9 481 个 基因 进行 了 UTR 延长 ,其 中 5'UTR 和 3'UTR 延长 的 基 
因 分 别 有 4 744 和 4737 个 。 共 预测 出 10 492 个 完整 ORF, 其 中 编码 长 度 分 布 在 0 ~100 和 100 ~ 
200 个 氨基酸 的 ORF 最 多 ,分 别 占 ORF 总 数 的 38.96% 4e 36.9096 。 共 鉴定 到 5 286 个 SSR ,其 中 
单 核 葵 酸 重复 、 二 核 普 酸 重复 、 三 核 葵 酸 重复 、 四 核 普 酸 重 复 、 五 核 普 酸 重复 和 六 核 普 酸 重复 的 SSR 
分 别 为 1 870, 826, 2 398, 138, 43 和 11 个 。 共 鉴定 到 1 558 个 新 基因 ,其 中 有 1 556, 731, 330, 
592, 1 177, 709 和 589 个 新 基因 可 分 别 被 注释 到 Nr, Swiss-Prot, Pfam, KOG, eggNOG, GO 和 
KEGG 数据 库 。 此 外 ,还 鉴定 到 14 403 条 新 转录 本 ,其 中 有 14 376, 8 524, 7 276, 7 405, 12 035, 
7 891 和 6 855 条 新 转录 本 可 分 别 被 注释 到 上 述 7 个 数据 库 。 【结论 ] 本 研究 利用 已 获得 的 纳米 孔 
长 读 段 测序 数据 对 蜜蜂 球 喜 菌 的 完整 ORF 进行 了 预测 ,对 参考 基因 组 的 已 注释 基因 进行 了 UTR 
延长 ,对 未 注释 的 SSR 位 点 进行 了 发 振 , 此 外 还 鉴定 到 大 量 未 注释 的 新 基因 和 新 转录 本 ,并 对 它们 
进行 了 功能 注释 。 研 究 结 果 较 好 地 完善 了 现 有 的 蜜蜂 球 淖 菌 的 基因 组 注释 ,为 其 组 学 和 分 子 生 物 
学 研究 的 深入 开展 提供 了 基础 。 
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Abstract: [ Aim] This study aims to improve the annotation information of the current reference genome 
of Ascosphaera apis by utilizing previously gained nanopore long-read sequencing data, and to identify and 
perform functional annotation of unannotated novel genes and novel transcripts. [ Methods] Based on the 
previously gained nanopore long-read sequencing data, full-length transcripts of A. apis were compared 
with transcripts annotated in the reference genome using gffcompare software to prolong untranslated 
regions ( UTRs). The open reading frames ( ORFs) of genes in A. apis and their corresponding amino 
acid sequences were predicted using TransDecoder software. MISA software was used to survey simple 
sequence repeat (SSR) loci within transcripts with a length above 500 bp. Based on Blast tool, novel 
genes and novel transcripts were aligned to the Nr, KOG, eggNOG, Swiss-Prot, Pfam, GO and KEGG 
databases to gain their corresponding functional annotations. [Results] Totally, UTRs of 9 481 genes in 
A. apis were prolonged, among which 4 744 and 4 737 genes were prolonged at 5' UTR and 3'UTR, 
respectively. In addition, 10 492 complete ORFs were predicted, among which the ORFs encoding 
proteins distributed in 0 — 100 aa and 100 - 200 aa in length were the most abundant, accounting for 
38. 96% and 36.9096 of the total ORFs, respectively. A total of 5 286 SSRs were identified, and the 
numbers of mononucleotide repeats, dinucleotide repeats, trinucleotide repeats, tetranucleotide repeats, 
pentanucleotide repeats and hexanucleotide repeats were 1 870, 826, 2 398, 138, 43 and 11, 
respectively. Besides, 1 558 novel genes were identified, among which 1 556, 731, 330, 592, 1 177, 
709 and 589 were annotated to the Nr, Swiss-Prot, Pfam, KOG, eggNOG, GO and KEGG databases, 
respectively. Additionally, 14 403 novel transcripts were identified, among which 14 376, 8 524, 7 276, 
7 405, 12 035, 7 891 and 6 855 were respectively annotated to the aforementioned seven databases. 
[ Conclusion] By using the previously obtained nanopore long-read sequencing data, the complete ORFs 
of genes in A. apis has been predicted, the UTRs of annotated genes in reference genome have been 
elongated, the SSR loci have been explored, and a number of unannotated novel genes and novel 
transcripts have been identified and their functions annotated. These findings well improve the current 
genome annotation of A. apis, and offer a basis for further study on its omics and molecular biology. 


Key words: Ascosphaera apis; long-read sequencing technology; full-length transcriptome; genome; 
honeybee; chalkbrood 








蜜蜂 是 自然 界 最 重要 的 授粉 昆虫 ,在 农业 生产 W, 2017), 














和 生态 维持 方面 发 挥 不 可 蔡 代 的 作用 (Montoya- 
Pfeiffer et al., 2020) 。 此 外 ,蜜蜂 生产 的 蜂王 浆 、! 
4E .蜂胶 和 蜂蜡 等 蜂 产 品 具 有 重要 的 经 济 和 药 用 价 
{E ( Ahmad et al., 2020)。 但 作为 群居 性 昆虫 ,蜜蜂 
易 遭 受 细菌 真菌 和 病毒 等 病原 微生物 的 侵袭 而 需 
患 疾病 。 其 中 ,蜜蜂 白垩 病 是 一 种 长 期 困扰 养 蜂 生 
产 的 顽疾 , H1 SE TEE ER SETS] Ascopshaera apis 侵 染 蜜 ! 
幼虫 而 引发 (Jensen et al., 2013) 。 到 目前 为 止 , 养 
蜂 生产 中 对 于 白垩 病 仍 缺乏 有 效 的 防治 手段 ( 陈 大 
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Qin 4& (2006 ) iH TXK ERE TAL 0.5 — 1 A 和 
A10 菌株 进行 Sanger illl FF , 2H 3e T SE E BR FE TALI] Ac 
因 组 草图 ,但 作者 当时 仅 公布 了 基因 序列 信息 ,并 没 
有 同时 公布 基因 功能 注释 信息 ,导致 该 版 本 的 基因 
组 长 期 无 法 被 有 效 利 用 ,阻碍 了 蜜蜂 球 吉 菌 的 进 一 
步 研究 。Shang 等 (2016) 运 用 二 代 测 序 技术 对 蜜蜂 
EK3€p ARSEF 7405 菌株 进行 测序 ,重新 组 装 和 注 
释 了 scafford 水 平 的 蜜蜂 球赛 菌 参 考 基因 组 (AAP 
1.0) ,同时 公布 了 完整 的 基因 序列 和 基因 功能 注释 
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言 息 ,为 该 真菌 病原 的 组 学 和 分 子 生物 学 研究 黄 定 
了 基础 。 由 于 测序 技术 的 限制 , 除 人 类 (Audano et 
al.，2019 )、 小 鼠 Mus musculus ( Mouse Genome 
Sequencing Consortium, 2009) MÆR Sif Drosophila 
melanogaster (Solares et al., 2018) 等 极 少 数 模式 生 
物 的 基因 组 组 装 到 染色 体 水 平 外 ,多 数 物 种 的 基因 
组 仅 组 装 到 contig 或 scafford 水 平 , 仍 有 较 大 的 提升 
空间 。 近 年 来 ,以 牛津 纳米 孔 ( Oxford Nanopore ) 长 
读 段 测序 技术 和 PacBio 单 分 子 实 时 (single-molecule 
real-time，SMRT) 测 序 技术 为 代表 的 三 代 测 序 技术 
逐渐 兴起 并 快速 发 展 。 三 代 测 序 技术 因 具 有 超 长 读 
长 的 显著 优势 而 能 够 轻松 跨越 重复 序列 , 目前 已 成 
为 基因 组 研究 的 利器 (Lu et al., 2016; Nakano et 
al., 2017) 。 人 们 已 利用 纯 三 代 测序 或 三 代 测 序 结 
合 二 代 测 序 将 人 类 (Pendleton et al., 2015) IKERRI 
WW. Harpegnathos saltator ( Shields et al., 2018) 和 苹果 
Malus domestica ( Daccord et al., 2017) 等 物种 的 基 
因 组 组 装 到 染色 体 水 平 。 但 目前 基于 三 代 测 序 技 术 
的 基因 组 测序 成 本 较 高 ,对 一 些 基 因 组 较 大 的 物种 
进行 基因 组 测序 成 本 仍然 高 昂 ; 对 于 一 些 经 费 有 限 
的 实验 室 , 利 用 三 代 测序 技术 进行 基因 组 测序 还 存 
在 较 大 困难 。 与 基于 三 代 测 序 技术 的 基因 组 测序 相 
比 ,通过 三 代 测 序 技术 进行 转录 组 测序 的 周期 较 短 
且 成 本 较 低 (Magrini et al., 2018) ,因此 利用 三 代 全 
长 转录 组 数据 对 现 有 的 参考 基因 组 注释 进行 完善 是 
可 行 性 较 高 的 替代 策略 。 近 期 ,利用 PacBio SMRT 
测序 得 到 的 全 长 转录 组 数据 对 锡 兰 勾 虫 Ancylostoma 
ceylanicum. ( Magrini et al., 2018) 和 小 麦 Triticum 
aestivum ( Dong et al., 2015) 基因 组 注释 进行 完善 的 
研究 已 见 诸 报道 。 然 而 ,利用 基于 Nanopore 测序 得 
到 的 长 读 段 数据 对 基因 组 注释 进行 完善 的 研究 报道 
EZ. 

HF RE ERE ALIS] e I Peor 2H DEAE , E RU 
期 已 利用 Nanopore K i£ Bt W JF d: ROSE SEEK AE TT 
的 纯化 菌 丝 (AaM) 和 纯化 孢子 (Aas ) 分 别 进行 测 
Fr ,基于 高 质量 的 测序 数据 构建 和 注释 了 蜜蜂 球 沾 
菌 的 首 个 全 长 转录 组 (未 发 表 数据 ) LO EON SEE CURE 
将 基因 的 可 变 剪 切 和 可 变 腺 苷 酸化 进行 了 系统 鉴定 
和 分 析 ( 未 发 表 数 据 ) 。 本 研究 利用 已 获得 的 高 质 
量 Nanopore 长 读 段 测序 对 现 有 的 蜜蜂 球 圳 菌 参考 
基因 组 中 已 注释 基因 进行 结构 优化 ,对 未 注释 的 简 
重复 序列 (simple sequence repeat, SSR) 位 点 进行 
鉴定 ,进而 对 未 注释 的 新 基因 和 新 转录 本 进行 鉴定 
和 功能 注释 ,并 预测 完整 开放 阅读 框 (open reading 

























































































frame, ORF) 。 研 究 结果 可 为 蜜蜂 球 才 菌 参考 基因 
组 的 序列 和 功能 注释 提供 重要 补充 ,也 能 为 其 他 物 
种 的 基因 组 完善 提供 思路 和 方法 借鉴 。 
1 材料 与 方法 
1.1 长 读 段 测序 数据 来 源 

前 期 已 通过 Oxford. Nanopore 技术 对 来 源 于 纯 
培养 的 蜜蜂 球 圭 菌 AaM 和 AaS 分 别 进行 全 长 转录 
组 测序 ,获得 了 高 质量 的 长 读 段 测序 数据 ,分 别 测 得 
6 321 704 和 6 259 727 条 原始 读 段 (raw reads) ,居中 
长 度 ( N50) 分 别 为 1 094 和 1 157 bp ,平均 读 长 分 别 
为 992 和 1 047 bp, 最 大 读 长 分 别 为 9 421 和 13 060 
bp; 分 别 鉴定 出 9 859 和 16 795 条 非 宛 余 全 长 转录 
本 ,N50 分 别 达 1 482 和 1 658 bp ,平均 长 度 分 别 为 
1 187 和 1 303 bp ,最 大 长 度 分 别 为 6472 和 6 815 bp 
(未 发 表 数 据 ) 。 纳 米 孔 测序 原始 数据 已 上 传 NCBI 
SRA 数据 库 ,获得 BioProject 号 : PRJNA645872。 
1.2 基因 结构 优化 

由 于 软件 和 数据 本 身 的 局 限 性 ,导致 多 数 基因 
组 的 基因 结构 信息 不 够 精确 ,需要 进一步 优化 。 为 
最 大 限度 对 蜜蜂 球 吉 菌 的 参考 基因 组 注释 进行 完 
善 ,本 研究 将 AaM 和 AaS 的 长 读 段 测序 数据 混合 后 
采用 gffcompare 软件 (http: / ccb. jhu. edu/software/ 
stringtie/ gffcompare. shtml ) 将 鉴定 到 蜜蜂 球 吉 菌 的 
全 长 转录 本 与 蜜蜂 球 喜 菌 参考 基因 组 (AAP 1.0) 注 
释 的 转录 本 进行 比较 ,然后 对 基因 组 注释 的 基因 结 
构 信 息 进 行 优 化 。 若 在 注释 基因 边界 之 外 的 区 域 有 
比 对 上 的 读 段 (mapped reads) 支持 , 则 将 注释 基 
的 非 翻 译 区 ( untranslated region, UTR) 向 上 游 或 下 
游 延 伸 以 修正 注释 基因 的 边界 。 
1.3 完整 ORF 的 生物 信息 学 预测 

利用 TransDecoder 软件 ( http: // transdecoder. 
sourceforge. net/) 基于 ORF 长 度 、 对 数 似 然 函数 值 、 
氨基 酸 序列 及 Pfam 数据 库 蛋 白质 结构 域 序列 的 比 
对 等 信息 ,从 蜜蜂 球 沾 菌 AaM 和 AaS 的 长 读 段 测序 
混合 数据 鉴定 到 的 新 转录 本 序列 中 识别 可 靠 的 潜在 
编码 区 序列 (coding sequence，CDS) 及 其 对 应 氨基 
酸 序列 ,同时 预测 包含 起 始 密码 子 和 终止 密码 子 的 
完整 ORF。 
1.4 SSR 位 点 的 鉴定 及 分 析 

MISA 软件 (http: // pgrc. ipk-gatersleben. de/misa/ ) 
可 以 通过 分 析 转 录 本 序列 鉴定 出 8 种 类 型 的 SSR, 
包括 单 核 苷 酸 重复 (pl1)、 双 核 苷 酸 重 复 (p2) 三 核 
苷 酸 重 复 (p3) 四 核 苷 酸 重 复 (p4) 五 核 苷 酸 重 复 
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(P5) ,六 核 苷 酸 重 复 (p6) 混合 SSR(Cc I c* ) CHI 
两 个 SSR 之 间 的 距离 小 于 100 bp), $P c 类 型 的 
SSR 重复 序列 之 间 包 含 若 干 个 碱 基 , 而 c ”类 型 的 
SSR 重复 序列 之 间 没 有 或 只 有 一 个 其 他 碱 基 (Thiel 
et al., 2003) 。 从 去 宛 余 的 蜜蜂 球面 菌 全 长 转录 本 
中 筛选 长 度 在 500 bp 以 上 的 全 长 转录 本 ,利用 
MISA 软件 预测 SSR 位 点 ,采用 默认 参数 。 
1.5 新 基因 和 新 转录 本 的 鉴定 及 功能 注释 
通过 将 蜜蜂 球 圳 菌 的 全 长 转录 本 与 参考 基因 组 
注释 的 基因 和 转录 本 进行 比较 ,鉴定 现 有 参考 基因 
组 上 未 注释 的 新 基因 和 新 转录 本 。 利 用 Blast 工具 
表 1 




















将 上 述 新 基因 和 新 转录 本 分 别 比 对 Nr, Swiss-Prot, 
Pfam, KOG, eggNOG, GO 和 KEGG 数据 库 以 获得 
相应 的 功能 注释 。 


2 结果 


2.1 蜜蜂 球 圳 菌 参 考 基 因 组 已 注释 基因 的 5'UTR 
和 3’UTR 延长 

共 对 蜜蜂 球 蝇 菌 的 9 481 个 基因 的 结构 进行 优 
化 ,其 中 5'UTR 和 3’UTR 延长 的 基因 分 别 有 4 744 
和 4 737 个 。 部 分 守 峰 球 喜 菌 基因 的 结构 优化 信息 
如 表 1 所 示 。 














蜜蜂 球 吉 菌 参 考 基 因 组 已 注释 的 10 个 基因 的 结构 优化 信息 概要 


Table 1 Summary of structural optimization of ten annotated genes in the reference genome of Ascosphaera apis 

















基因 ID 基因 位 置 正 负 链 末端 优化 前 位 置 (bp) 优化 后 位 置 (bp) 
Gene ID Gene locus Plus and minus strand End Original site Optimized site 
Genel789 AZGZ01000017. 1 :430545 -432564 + 5 430 678 430 545 
Gene1789 AZGZ01000017. 1 :430545 -432564 + 3% 432 202 432 564 
Gene3514 AZGZ01000029. 1:123607 - 124953 * 5 123 882 123 607 
Gene3514 AZGZ01000029. 1:123607 - 124953 + 3^ 124 590 124 953 
Gene3789 AZ6GZ01000003. 1.634688 - 637505 - 22 635 879 634 688 
Gene3789 AZ6GZ01000003. 1.634688 - 637505 - 3 637 204 637 505 
Gene2170 AZ6GZ01000002. 1 :278896 -281695 * 5 279 003 278 896 
Gene2170 AZGZ01000002. 1 :278896 -281695 + 3' 281 340 281 695 
Gene2541 AZ26GZ01000020. 1136027 - 137516 - 5^ 136 267 136 027 
Gene2541 AZ26GZ01000020. 1:136027 - 137516 - 3^ 137 354 137 516 


2.2 蜜蜂 球 圭 菌 基因 组 中 完整 ORF 预测 

共 预 测 出 10 492 个 完整 ORF, 它 们 编码 的 氨基 
酸 序列 长 度 分 布 介 于 0 ~400 aa, 其 中 分 布 在 0 ~ 100 
aa 的 ORF 数量 最 多 ,为 4088 个 ( 占 38.96% ) ;其 次 





















1000-1 100 


(2, 0.0276) 
900-1000 


(2, 0.0295) 


800-900 (3, 0.0395) 


为 分 布 在 100 ~ 200, 200 ~ 300 和 300 ~ 400 aa 的 
ORF ,数量 分 别 为 3 872 个 ( 占 36.9096 ) , 1 525 个 
( 占 14.53% ) 和 595 个 ( 占 5.67% )( 图 1)。 


* 
三 700-800 (11. 0.196) 
$ 600-700 (28. 0.27%) 
Z  son-e00 (88, 0.8494) 
一 
号 400-500 (278, 2.65%) 
= 
T 300-400 (595, 5.67%) 
E 

200-300 (1525, 14.53%) 

100-200 (3872, 36.90%) 

0-100 14088. 38.96%) 
l 10 100 1000 10000 
TORF R 3 Z4 ERROR ICE 
Number of amino acids encoded by complete ORFs 
1 ERREAK rs ORF 编码 氨基 酸 的 长 度 分 布 
Fig. 1 Length distribution of amino acids encoded by complete ORFs in the genome of Ascosphaera apis 
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2.3 蜜蜂 球 圳 菌 参考 基因 组 未 注释 SSR 位 点 

本 研究 在 24 294 167 pp 的 序列 中 共 鉴 定 到 
5 286 个 SSR 位 点 ,含有 SSR 位 点 超过 1 个 的 基因 数 
为 1004 个 ,混合 SSR 位 点 有 434 个 。 此 外 ,pl1, p2, 
p3, p4, p5 和 p6 的 数量 分 别 为 1 870, 826, 2 398, 
138, 43 和 11 个 ( 表 2) 。 进 一 步 分 析 发 现 ,p3 类 型 
的 SSR 密度 最 大 ,达到 83. 72 个 /Mb , 其 次 为 pl， 
p2, c, p4, p5, c' 和 p6 ,分 别 达 到 65. 20, 27.91, 
15.77, 4.86, 1.48, 0.45 $00.33 个 /Mb( 图 2)。 

R2 ， 蜜蜂 球 圳 菌 参 考 基因 组 中 SSR 位 点 的 
MISA 软件 分 析 结果 


Table2 Analysis result of SSRs in the reference 
genome of Ascosphaera apis with MISA 








MISA 搜索 项 目 数目 








MISA searching item Number 





搜索 基因 Searched genes 17 655 
搜索 基因 的 总 序列 长 度 

Total sequence length of searched genes (bp) 

鉴定 到 的 SSR 位 点 Identified SSR loci 5 286 
鉴定 到 的 SSR 总 序列 长 度 


24 294 167 
























































Total sequence length of identified SSRs ( bp) 391 
含有 1 个 以 上 SSR 的 基因 Looi 
Genes containing more than one SSR 

混合 SSR Mixed SSR 434 
AIZ REZ Mononucleotide repeats 1 870 
XUZ PREK Dinucleotide repeats 826 
三 核 背 酸 重复 Trinucleotide repeats 2 398 
四 核 背 酸 重复 Tetranucleotide repeats 138 
五 核 苷 酸 重 复 Pentanucleotide repeats 43 
KNIZ REZ Hexanucleotide repeats 11 











2.4 蜜蜂 球 囊 菌 参考 基因 组 中 未 注释 的 新 基因 的 
鉴定 及 功能 注释 

共 鉴 定 到 1558 个 新 基因 ,其 中 分 别 有 1 556, 
731, 330, 592, 1 177, 709 和 589 个 新 基因 可 分 别 
被 注释 到 Nr, Swiss-Prot, Pfam, KOG, eggNOG, GO 
和 KEGG 数据 库 。Nr 数据 库 中 新 基因 注释 数量 最 
多 的 物种 是 蜜蜂 球赛 菌 , 其 次 为 Polytolypa hystricis 
和 伊 蒙 微 小 菌 Emmonsia parva( 图 3: A) 。 新 基因 可 
注释 到 KOG 数据 库 的 25 个 功能 类 别 , 注 释 数 量 最 
多 的 是 仅 一 般 功 能 预测 ( general function prediction 
only) ,其 次 是 翻译 后 修饰 、 蛋 白质 转换 和 分 子 伴 倡 


( posttranslational 





modification , 
chaperones) , 24 基 酸 转运 和 代谢 (amino acid 
transport and metabolism ) , 信号 转 导 机 制 (signal 
transduction mechanisms ) 以 及 翻译 核糖 体 结构 和 生 
物 合成 (translation ，ribosomal structure and biogenesis ) 
等 (图 3: B)。 此 外 ,新 基因 可 被 注释 到 eggNOG 数 
据 库 的 25 个 功能 类 别 ,数量 最 多 的 为 未 知 功能 


protein turnover, 
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Fig. 2 Density statistics of various types of SSRs in 
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the reference genome of Ascosphaera apis 
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核 苷 酸 重复 IT RE M MN ELTE RR E ILI SSR Types of SSRs 


with mononucleotide repeats, dinucleotide repeats, trinucleotide 





























repeats, tetranucleotide repeats, pentanucleotide repeats and hexa- 
nucleotide repeats, respectively; c, c* : 混合 SSR , 即 两 个 SSR 之 间 
的 距离 小 于 100 bp ,其 中 c 类 型 的 SSR 重复 序列 之 间 包 含 若干 个 碱 
Jk, c" 类 型 的 SSR 重复 序列 之 间 没 有 或 只 有 一 个 其 他 碱 基 。 
Mixed SSRs, in which the distance between two SSRs is shorter than 100 


























bp; c indicates SSRs containing several bases, while c * indicates SSRs 


without other base or only with one other base. 


(function unknown) ,其 次 为 碳水 化 合 物 转运 及 代谢 
(carbohydrate transport and metabolism ) , 翻译 后 修 
饰 、 和 蛋白 质 转换 和 分 子 伴 侣 ,细胞 内 移动 分泌 和 中 
泡 运 输 ( intracellular trafficking, 
vesicular transport) ,转录 (transcription) 以 及 翻译 、 核 
糖 体 结构 和 生物 合成 等 (图 3: C). 

蜜蜂 球 吉 菌 的 新 基因 还 能 被 注释 到 GO 数据 库 
的 37 个 功能 条 目 , 包 括 细胞 组 件 (cell part) (347 
个 ) ,细胞 (cell) (340 个 ) ,细胞 器 (organelle ) (262 
个 ) 等 细胞 组 分 相关 GO term; 催化 活性 (catalytic 
activity) (328 个 ) ,结合 (binding)(254 个 ) 等 分 子 功 
能 相关 GO term; 细胞 进程 (cellular process ) ( 359 
个 ) ,代谢 进程 (metabolism process) (340 个 ) ,单一 
组 织 进程 (single-organism process) (245 个 ) 等 生物 
学 过 程 相关 GO term( 图 4) 。 

此 外 ,上 述 新 基因 还 可 被 注释 到 KEGG 数据 库 
的 101 条 通路 ,包括 抗生素 的 生物 合成 (biosynthesis 
of antibiotics) (52 个 ), 碳 代谢 (carbon metabolism ) 
(29 个 ) ,氨基 酸 的 生物 合成 (biosynthesis of amino 
acids) (27 个 ) ,剪接 体 (spliceosome) (23 ^P) , BERE 
解 / 糖 异 生 ( glycolysis/gluconeogenesis) (20 个 ), 细 
胞 周期 -酵母 (cell cycle-yeast ) (20 个 ) ,核糖 体 
(ribosome) (18 个 ),RNA 转运 (RNA transport ) ( 18 
个 ), 泛 素 介 导 的 蛋白 水 解 (ubiquitin mediated 


secretion, and 
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DEREK Ascosphaera apis (1314, 84.4594) 

I Polytolypa hystricis (11, 0.7194) 

m H# tuhi Emmonsia parva (10, 0.64%) 

E 匡 膜 组 织 胞 浆 菌 Histoplasma capsulatum (10, 0,6496) 
— Helicocarpus griseus (9, 0.58%) 

I8 Uncinocarpus reesii (7, 0,45%) 

D RRF Coccidioides posadasii (6, 0.3994) 

= SHARUT E Emmonsia crescens (6. 0.3996) 

D EARTE Paracoccidioides immitis (6, 0.32%) 
mA, EBP Blastomyces gilchristi (4, 0.26%) 

m 其 他 Others (174, 1.1899) 


A: RNA processing and modification (33, 4.9196) 

B: Chromatin structure and dynamics (9, 1.3496) 

C: Energy production and conversion (37, 5.51%) 

D: Cell cycle control, cell division, chromosome partitioning (35, 5.2194) 
E; Amino acid transport and metabolism (47, 6.99%) 

F: Nucleotide transport and metabolism (18, 2.68%) 

G: Carbohydrate transport and metabolism (41, 6.10%) 

H: Coenzyme transport and metabolism (8, 1.19%) 

1; Lipid transport and metabolism (27, 4.02%) 

J: Translation, ribosomal structure and biogenesis (43, 6.40%) 

K: Transertption (21, 3.1396) 

L; Replication, recombination and repair (16, 2.38%) 

M: Cell wall/membrane/envelope biogenesis (11, 1.6494) 

N: Cell motility (0, 0%) 

O: Posttranslational modification, protein tumover, chaperones (68, 10.12%) 
P: Inorganic ion transport and metabolism (24, 3.5796) 

Q: Secondary metabolite biosynthesis, transport and catabolism (R2, 12,20%) 
R: General function prediction only (34. 5.06%) 

8: Function unknown (34, 5.06%) 

T: Signal transduction mechanisms (45, 6.7094) 

U: Intracellular trafficking, secretion, and vesicular transport (37, 5.51%) 
V: Defense mechanisms (4, 0.60%) 

W: Extracellular structures (0, 0%) 

Y: Nuclear structure (4, 0.60%) 

Z: Cytoskeleton (11, 1.6496) 


A: RNA processing and modification (15, 1.24%) 

B: Chromatin structure and dynamics (6, 0.595) 

C: Energy production and conversion (45, 3.73%) 

D: Cell cycle control, cell division, chromosome partitioning (19, 1.57%) 
E: Amino acid transport and metabolism (55, 4.56%) 

F: Nucleotide transport and metabolism (18, 1.49%) 

G: Carbohydrate transport and metabolism (90, 7.4694) 

H: Coenzyme transport and metabolism (17, 1.4196) 

I: Lipid transport and metabolism (37, 3.0794) 

J: Translation, ribosomal structure and biogenesis (60, 4.9796) 

K: Transcription (62, 5.14%) 

L: Replication, recombination and repair (37, 3,07%) 

M: Cell wall/membrane/envelope biogenesis (10, 0.8396) 

N: Cell motility (0, 0%) 

O: Posttranslational modification, protein turnover, chaperones (82, 6.7994) 
P: Inorganic ion transport and metabolism (22, 1.8296) 

Q: Secondary metabolite biosynthesis, transport and catabolism (12, 0.9994) 
R: General function prediction only (0, 095) 

S: Function unknown (502, 41.5996) 

T: Signal transduction mechanisms (37, 3.07%) 

U: Intracellular trafficking, secretion, and vesicular transport (68, 5.6396) 
V: Defense mechanisms (4, 0.33%) 

W: Extracellular structures (0, 096) 

Y: Nuclear structure (0, 0%) 

Z: Cytoskeleton (9, 0.75%) 


ABCDEFGRIJKLMNOPQRSTUVWYZ 
功能 类 别 Function class 
图 3 ”蜜蜂 球 品 菌 参 考 基 因 组 中 新 基因 的 Nr(A) .KOG(B) 和 eggNOG(C) 数 据 库 注释 

















Fig. 3 Annotations of novel genes in the reference genome of Ascosphaera apis 


in the Nr (A), KOG (B) and eggNOG (C) databases 


proteolysis) (15 个 ) U J& E M fV ij ( purine 
metabolism) (14 个 ) 等 (图 5) ,条 目 或 通路 后 的 括号 
内 数字 代表 注释 的 新 基因 占 比 。 
2.5 ”蜜蜂 球 宫 菌 参考 基因 组 中 未 注释 的 新 转录 本 
的 鉴定 及 功能 注释 

共 鉴 定 出 14 403 条 新 转录 本 ,其 中 分 别 有 


14 376, 8 524, 7 276, 7 405, 12 035, 7 891 和 6 855 
条 新 转录 本 可 被 分 别 注释 到 Nr, Swiss-Prot, Pfam, 
KOG, eggNOG, GO 和 KEGG 数据 库 。Nr 数据 库 中 
新 转录 本 注释 数量 最 多 的 物种 是 蜜蜂 球赛 菌 ,其 次 
为 Polytolypa hysiricis 和 Helicocarpus griseus (图 6; 
A)。 新 转录 本 可 被 注释 到 KOG 数据 库 的 25 个 功 
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4 ”蜜蜂 球 圳 菌 参 考 基 因 组 中 新 基因 的 GO 数据 库 注释 


Fig. 4 Annotations of novel genes in the reference genome of Ascosphaera apis in the GO databases 





能 类 别 , 包 括 仅 一 般 功 能 预测 ,翻译 ,核糖 体 结构 和 
生物 合成 ,翻译 后 修饰 、 蛋 白质 转换 和 分 子 伴侣 , 信 
号 转 导 机 制 ,氨基 酸 转运 和 代谢 ,细胞 内 移动 、 分泌 
和 过 泡 运 输 , 能 量 生产 和 转换 (energy production and 
conversion) ,RNA 加工 与 修饰 (RNA processing and 
modification) ,未 知 功能 以 及 碳水 化 合 物 转 运 及 代谢 
等 (图 6: B)。 此 外 ,新 转录 本 还 可 被 注释 到 
eggNOG 数据 库 的 25 个 功能 类 别 ,包括 未 知 功能 , 翻 
译 、 核 糖 体 结构 和 生物 合成 ,翻译 后 修饰 、 蛋 白质 转 
换 和 分 子 伴侣 ,细胞 内 移动 分泌 和 骂 泡 运输 ,碳水 
化 合 物 转运 及 代谢 ,氨基 酸 转 运 和 代谢 ,转录 ,能 量 
生产 和 转换 , 脂 转 运 及 代谢 (lipid transport and 
metabolism) 以 及 信号 转 导 机 制 等 (图 6: C)。 图 6 
括号 内 数字 代表 注释 到 该 条 目 或 通路 的 新 转录 本 数 
量 和 占 比 。 

上 述 新 转录 本 还 能 被 注释 到 GO 数据 库 的 44 
个 功能 条 目 , 主要 涉及 细胞 (4 494 条 ) ,细胞 组 件 
(4 448 条 ) ,细胞 器 (3 356 条 ) ,细胞 膜 (2 332 条 )， 
大 分 子 复合 物 (macromolecular complex) (1 951 条 ) 
等 细胞 组 分 相关 GO term; 催化 活性 (3 539 条 ) , 结 


合 (2 976 2&) 等 分 子 功能 相关 GO term; 细胞 进程 
(4 281 条 ) ,代谢 进程 (4 055 条 ) ,单一 组 织 进程 
(2 584 条 ) 等 生物 学 过 程 相 关 GO termC IK] 7) 。 

此 外 ,这 些 新 转录 本 还 可 被 注释 到 KEGG 数据 
库 的 119 条 通路 ,注释 数量 最 多 的 是 抗生素 的 生物 
合成 (550 条 ) ,其 次 是 核糖 体 (495 条 ) ,氨基 酸 的 生 
物 合成 (284 条 ), 碳 代谢 (275 条 ) 及 剪接 体 (253 
条 ) 等 (图 8)。 


3 讨论 








目前 ,蜜蜂 球 喜 菌 的 基因 组 尚未 组 装 到 染色 体 
水 平 ,其 序列 和 功能 注释 信息 仍 需 进一步 优化 完善 。 
此 前 ,笔者 所 在 课题 组 利用 Humina 测序 得 到 的 短 
读 段 数据 对 蜜蜂 球 吉 菌 的 参考 基因 组 注释 进行 完 
善 ,分 别 对 51 和 50 个 已 注释 基因 的 5'UTR 和 
3'UTR 进 行 延长 ,鉴定 出 373 个 新 基因 并 对 部 分 新 
基因 进行 了 功能 注释 ( 郭 害 等 , 2019), Nanopore 长 
读 段 测序 技术 作为 当前 主流 的 三 代 测 序 技术 已 成 功 
应 用 于 人 类 (Lea et al., 2018) 大豆 Glycine max 
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图 5 蜜蜂 球 吉 菌 参 考 基 因 组 中 新 基因 的 KEGG 数据 库 注释 
Fig. 5 Annotations of novel genes in the reference genome of Ascosphaera apis in the KEGG databases 
图 中 括号 前 的 数字 为 基因 数量 The numerals before brackets in the figure are the number of genes. 





( Fleming et al., 2018) 和 杆 状 病毒 (Moldovdn et al., 
2018) 等 物种 的 全 长 转录 组 研究 。 然 而 对 于 绝 大 多 ”基因 组 的 人 研究 报道 。 本 研究 利用 前 期 已 获得 的 


数 物种 还 没有 基于 Nanopore 长 读 段 测序 数据 完善 
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A: RNA processing and modification (413, 4,9954) 

B: Chromatin structure and dynamics (11 1, 1.34%) 

C: Energy production and conversion (504, 6.09%) 

D: Cell cycle control, cell division, chromosome partitioning (266, 3.21%) 
E: Amino acid transport and metabolism (516, 6.2396) 

F: Nucleotide transport and metabolism (149, 1.80%) 

G: Carbohydrate transport and metabolism (389, 4.7094) 

H: Coenzyme transport and metabolism (126, 1.52%) 

1: Lipid transport and metabolism (389, 4.7094) 

J: Translation, ribosomal structure and biogenesis (868, 10,4895) 
K: Transcription (353, 4.26%) 
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N: Cell motility (5, 0.06%) 
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W: Extracellular structures (0, 095) 
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图 6 SEERSETRASE IEAA IFE RAS B] Nr( A) KOG(B) 和 eggNOG(C) 数 据 库 注释 


Fig. 6 Annotations of novel transcripts in the reference genome of Ascosphaera apis in the Nr (A), 


KOG (B) and eggNOG (C) databases 


Nanopore 长 读 段 测序 数据 对 蜜蜂 球 圳 菌 的 参考 基因 
组 注释 进行 完善 ,分别 延长 J4 744 和 4 737 个 已 注 
释 基 因 的 5'UTR fü 3 UTR ,数量 远 多 于 此 前 基于 二 
代 测 序数 据 延 长 的 注释 基因 数量 ,说 明 Nanopore 长 
读 段 测序 技术 在 优化 基因 结构 方面 具有 显著 优势 。 


鉴于 UTR 与 真 核 生 物 的 基因 表达 调控 存在 密切 关 
系 ( Barrett et al., 2012) ,本 研究 中 蜜蜂 球 宫 菌 基 因 
的 5'UTR 和 3'UTR 的 延长 对 于 基因 表达 调控 的 深 
入 人 研究 具有 重要 意义 。 此 外 ,本 研究 还 预测 出 10 
492 个 完整 ORF, 可 为 蜜蜂 球 吉 菌 基因 全 长 序列 的 
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图 7 蜜蜂 球 喜 菌 参考 基因 组 中 新 转录 本 的 GO 数据 库 注 释 
Fig. 7 Annotations of novel transcripts in the reference genome of Ascosphaera apis in the GO database 
克隆 及 功能 研究 提供 宝贵 的 参考 信息 。 得 到 的 unigene 总 数 多 达 42 610 个 ( 李 汶 东 等 ， 


第 二 代 分 子 标记 SSR 是 以 1 ~6 个 核 苷 酸 为 重 
复 单 元 组 成 的 简单 串联 重复 序列 ,具有 实验 操作 易 、 
重复 性 好 和 多 态 性 高 等 优点 (Jarne and Lagoda, 
1996), 与 传统 方法 相 比 ,利用 二 代 转 录 组 数据 开 
发 SSR 具有 高 通 量 的 特点 ,使 SSR 的 大 规模 开发 成 
为 现实 ( 郭 欢 等 , 2018; RRMA, 2019) 。 笔 
者 所 在 课题 组 前 期 也 基于 RNA-seq 数据 大 规模 开 
发 了 中 华 蜜蜂 Apis cerana cerana ( REIS, 2017) 
和 意大利 蜜蜂 Apis mellifera ligustica( 4$ , 2018) 
By SSR, ARI, C T AR RURI HIS SE SEEK DI SSR 较 
HAR EA Pr TE WE ZH B LR HE] S88 ER E TATE 
Ilumina 测序 数据 大 规模 挖掘 出 7 968 个 SSR ,最 主 
要 的 SSR 类 型 是 三 核 昔 酸 重 复 (53. 15% ) ,其 次 是 
二 核 昔 酸 重复 (32.32% ) 和 四 核 苷 酸 重 复 (8.46% ) 
( 李 汶 东 等 , 2017) 。 本 研究 共 鉴 定 到 5 286 个 SSR 
位 点 ,其 中 最 主要 的 类 型 同样 为 三 核 背 酸 重 复 
(45. 37% ) ,其 次 为 单 核 音 酸 重复 (35.38% ) 和 二 核 
TERR EE (15.63% ) ,表明 基于 三 代 长 读 段 数据 和 
二 代 短 读 段 数据 开发 出 的 SSR 类 型 相似 ,但 也 存在 
一 些 差 异 。 但 基于 三 代 长 读 段 数据 开发 出 的 SSR 
总 数 明显 少 于 基于 二 代 短 读 段 数据 开发 出 的 SSR 
总 数 , 究 其 原因 ,可 能 是 前 期 基于 二 代 测 序数 据 组 装 


























2017) , 远 多 于 蜜蜂 球 案 菌 参考 基因 组 包含 的 基因 
总 数 (6 442) ,这 是 由 于 二 代 测 序 得 到 的 片段 较 短 
(不 超过 300 bp) ,需要 利用 生物 信息 学 软件 对 短片 
段 进 行 拼接 。 下 一 步 将 通过 毛细 管 电泳 和 荧光 标记 
对 两 种 测序 技术 开发 出 的 SSR 进行 有 效 性 和 多 态 
性 检测 ,进而 明确 何 种 测序 技术 在 大 规模 开发 SSR 
方面 更 胜 一 筹 。 
前 期 研究 中 ,笔者 所 在 课题 组 基于 蜜蜂 球 坡 菌 
的 RNA-seq 数据 鉴定 到 373 ^P 39r AE DSL CD EAR, 
2019 ) 。 本 研究 中 , 共 鉴 定 到 现 有 参考 基因 组 未 注 
释 的 1 558 个 新 基因 , 占 注释 基因 总 数 的 24. 19% ， 
说 明基 于 Nanopore 长 读 段 测序 数据 较 二 代 短 读 段 
测序 数据 在 鉴定 新 基因 方面 具有 显著 优势 。 共 有 
1 314 个 新 基因 注释 到 蜜蜂 球 圳 菌 , 与 实际 情况 相 
符 ; 分 别 有 11 和 10 个 新 基因 注释 到 已 hystricis 和 
伊 蒙 微小 菌 (图 3: A) ,表明 上 述 新 基因 在 蜜蜂 球 喜 
菌 与 这 两 个 物种 之 间 具 有 一 定 的 保守 性 。 共 有 
1 177 个 新 基因 可 注释 到 eggNOG 数据 库 , 但 注释 到 
Swiss-Prot, Pfam, KOG, GO 和 KEGG 数据 库 的 新 基 
因数 量 偏 少 ,分 别 为 731, 330, 592, 709 和 589 个 ， 
说 明 这 些 数据 库 收录 的 蜜蜂 球 圳 菌 及 近 缘 物种 的 蛋 
白 功 能 注释 信息 较 少 。 蜜 蜂 球 引 菌 的 成 熟 转 基因 操 
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图 8 蜜蜂 球 圳 菌 参 考 基因 组 中 新 转录 本 的 KEGG 数据 库 注释 
Fig. 8 Annotations of novel transcripts in the reference genome of Ascosphaera apis in the KEGG database 
图 中 括号 前 的 数字 为 转录 本 数量 。The numerals before brackets in the figure are the number of transcripts. 
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VEBORAR ZR38 MRE , SECURE MAE RAE REIS SEAT 
功能 研究 严重 滞后 。 近 期 ,Tauber 55 (2019) 3 it 
外 转录 合成 B- 葡 聚 糖 合成 蛋白 编码 基因 以 及 Ras 
家 族 编码 基因 双 链 RNA (dsRNA ) JF Jb FE SE WERE 
菌 ,结果 显示 上 述 dsRNA n] fite SE MERI DR PIT T 
发 初期 被 吸收 ,相关 转录 本 受到 抑制 ,孢子 萌发 率 也 
相应 降低 。 该 研究 为 密 蜂 球 圳 菌 的 基因 功能 研究 提 
供 了 思路 借鉴 。 现 有 的 蜜蜂 球面 菌 参 考 基 因 组 注释 
的 转录 本 数量 为 6 442 条 ,本 研究 鉴定 到 14 403 条 
新 转录 本 ,高 于 注释 转录 本 的 数量 ,说 明 由 于 二 代 测 
序 产生 的 短 读 段 的 限制 ,蜜蜂 球 昨 菌 和 其 他 物种 的 
大 量 转录 本 有 待 挖掘 , Nanopore 长 读 段 测序 技术 在 
新 转录 本 的 鉴定 方面 大 有 作为 。 这 些 鉴 定 出 的 未 注 
释 的 全 长 转录 本 可 为 基因 全 长 序列 克隆 及 功能 研究 
提供 可 靠 的 数据 基础 。 新 转录 本 注释 数量 最 多 的 物 
种 同样 是 蜜蜂 球 上 沾 菌 ,与 现实 情况 相符 ,分 别 有 70 
和 58 条 新 转录 本 注释 到 P. hystricis 和 H. griseus 
(图 6: A) ,与 新 基因 的 注释 情况 略 有 差异 。 此 外 ， 
分 别 有 14 376, 8 524, 7 276, 7 405, 12 035, 7 891 
和 6 855 条 新 转录 本 可 被 分 别 注释 到 Nr, Swiss-Prot, 
Pfam, KOG, eggNOG, GO 和 KEGG 数据 库 ,这 些 信 
息 可 进一步 完善 蜜蜂 球 沾 菌 的 参考 基因 组 注释 。 

综 上 所 述 ,本 研究 利用 高 质量 的 Nanopore 长 读 
段 测序 数据 对 现 有 的 蜜蜂 球 守 菌 参考 基因 组 的 序列 
和 功能 注释 进行 了 完善 ,为 相关 组 学 及 分 子 生物 学 
研究 的 深入 开展 提供 了 重要 的 参考 信息 ,也 为 其 他 
物种 的 基因 组 完善 提供 了 方法 借鉴 。 














































































































参考 文献 ( References) 


Ahmad S, Campos MG, Fratini F, Altaye SZ, Li J, 2020. New insights 
into the biological and pharmaceutical properties of royal jelly. Int. 
J. Mol. Sci., 21(2) ; 382. 

Audano PA, Sulovari A, Graves-Lindsay TA, Cantsilieris S, Sorensen 
M, Welch AE, Dougherty ML, Nelson BJ, Shah A, Dutcher SK, 
Warren WC, Magrini V, McGrath SD, Li YI, Wilson RK, Eichler 
EE, 2019. Characterizing the major structural variant alleles of the 
human genome. Cell, 176(3) ; 663 - 675. 

Barrett LW, Fletcher S, Wilton SD, 2012. Regulation of eukaryotic gene 
expression by the untranslated gene regions and other non-coding 
elements. Cell. Mol. Life Sci., 69(21) : 3613 —3634. 

Chen DF, Guo R, Xiong CL, Liang Q, Zheng YZ, Xu XJ, Zhang ZN, 
Huang ZJ, Zhang L, Wang HQ, Xie YL, Tong XY, 2017. 
Transcriptome of Apis cerana cerana larval gut under the stress of 
Ascosphaera apis. Sci. Agric. Sin., 50(13) ; 2614 - 2623. [ 陈 大 
dá, WE, RETO, 梁 勤 , MRS, RAE, KE, NODUM, 
KIK, 王 鸿 权 , MER, 童 新 宇 , 2017. 中 华 蜜蜂 幼虫 肠 道 响应 




















球 履 菌 早期 胁 所 的 转录 组 学 . 中 国 农业 科学 ,50(13) ; 2614 - 
2623] 
Daccord N, Celton JM, Linsmith G, Becker C, Choisne N, Schijlen E, 
van de Geest H, Bianco L, Micheletti D, Velasco R, Di Pierro EA, 
Gouzy J, Rees DJG, Guérif P, Muranty H, Durel CE, Laurens F, 
Lespinasse Y, Gaillard S, Aubourg S, Quesneville H, Weigel D, 
van de Weg E, Troggio M, Bucher E, 2017. High-quality de novo 














assembly of the apple genome and methylome dynamics of early fruit 
development. Nat. Genet., 49(7) : 1099 — 1106. 

Dong L, Liu H, Zhang J, Yang S, Kong G, Chu JS, Chen N, Wang D, 
2015. Single-molecule real-time transcript sequencing facilitates 
common wheat genome annotation and grain transcriptome research. 
BMC Genomics , 16(1) : 1039. 

Fleming MB, Patterson EL, Reeves PA, Richards CM, Gaines TA, 
Walters C, 2018. Exploring the fate of mRNA in aging seeds: 
protection, destruction, or slow decay? J. Exp. Bot., 69 (18): 
4309 - 4321. 

Guo H, Wang G, Zhang ST, Huang M, 2018. Development of SSR 
primers for Simulium ( Eusimulium ) | angustipes ( Diptera; 
Simuliidae) based on RNA-seq dataset. Acta Entomol. Sin., 61 
(7): 815 - 824. [ 3EXX, 王刚 , SKI EH, xf, 2018. 基于 
RNA-seq Zi ll] ^E E EC SSR 分 子 标记 开发 . 昆虫 学 报 , 61 
(7): 815 - 824] 

Guo R, Chen HZ, Tong XY, Xiong CL, Zheng YZ, Fu ZM, Xie YL, 
Wang HP, Zhao HX, Chen DF, 2019. Structural optimization of 























annotated genes and identification of novel genes in Ascosphaera 
apis. J. China Agric. Univ., 24(1) : 61-68. [ 3p$, 陈 华 枝 , 童 
新 宇 , ARS, RRS, 付 中 民 , MER, 王 海 朋 , RAB, W 
大 福 , 2019. 蜜蜂 球 绝 菌 基因 结构 优化 及 新 基因 鉴定 ， 中 国 农 
业 大 学 学 报 , 24(1) : 61-68] 
Guo R, Chen HZ, Zhuang TY, Xiong CL, Zheng YZ, Fu ZM, Chen H, 

Chen DF, 2018. Exploitation of SSR markers for Apis mellifera 



































ligustica based on transcriptome data. J. Anhui Agric. Univ., 45 
(3):404 -408. [UTE BIER, ERE, BERT, AIRS, 付 
HR, 陈 恒 , 陈 大 福 , 2018. 利用 转录 组 数据 开发 意大利 蜜蜂 
的 SSR 分 子 标记 . 安徽 农业 大 学 学 报 , 45(3) : 404 -408] 

Jarne P, Lagoda PJ, 1996. Microsatellites, from molecules to populations 
and back. Trends Ecol. Evol., 11(10): 424 - 429. 

Jensen AB, Aronstein K, Flores JM, Vojvodic S, Palacio MA, Spivak 
M, 2013. Standard methods for fungal brood disease research. J. 
Apic. Res., 52(1) : 516 — 521. 

Lea WA, Parnell SC, Wallace DP, Calvet JP, Zelenchuk LV, Alvarez 











NS, Ward CJ, 2018. Human-specific abnormal alternative splicing 
of wild-type PKDI induces premature termination of polycystin-l. J. 
Am. Soc. Nephrol., 29 (10) : 2482 -2492. 

Li DH, Zhao P, 2019. Development of microsatellite markers based on 
the transcriptome data of Sclomina erinacea ( Heteroptera: 
Reduviidae). Acta Entomol. Sin., 62(6) ; 694 — 702. [ 黎 东 海 ， 
赵 萍 , 2019. 基于 转录 组 数据 的 齿 缘 刺 猎 晴 微 卫星 分 子 标记 
A. 昆虫 学 报 , 62(6): 694-702] 

Li WD, Xiong CL, Wang HQ, Hou ZX, Tong XY, Zhang L, Fu ZM, 
Zheng YZ, Chen DF, Guo R, 2017. Large scale development of 












































11 期 Fb FE: RET EOMERRON PR ARR LIU Fes B5 3E DSL HE EHE CREE SSR 位 点 发 掘 及 未 注释 基因 和 转录 本 鉴定 1357 











SSR molecular markers of Ascosphaera apis based on RNA-seq data. 
J. Fujian Agric. For. Univ., 46(4) ; 434 - 438. [7kiX 7k, BEAR 
B, 王 鸿 权 , post. 童 新 宇 , IKI, 付 中 民 , 郑 燕 珍 , 陈 大 福 ， 
Sp, 2017. 基于 RNA-seq 数据 大 规模 挖掘 蜜蜂 球 守 菌 的 SSR 
分 子 标 记 . 福建 农林 大 学 学 报 , 46(4) : 434 -438 ] 

Lu HY, Giordano F, Ning ZM, 2016. Oxford Nanopore MinION 























sequencing and assembly. ^ Genomics ^ Proteomics 
Bioinformatics., 14(5) : 265 - 279. 
Magrini V, Gao X, Rosa BA, McGrath S, Zhang X, Hallsworth-Pepin 


K, Martin J, Hawdon J, Wilson RK, Mitreva M, 2018. Improving 


genome 


eukaryotic genome annotation using single molecule mRNA 
sequencing. BMC Genomics, 19(1) : 172. 

Moldován N, Tombácz D, Szücs A, Csabai Z, Balázs Z, Kis E, Molnár 
J, Boldogköi Z, 2018.  Third-generation sequencing reveals 
extensive  polycistronism and transcriptional overlapping in a 
baculovirus. Sci. Rep., 8; 8604. 

Montoya-Pfeiffer PM, Rodrigues RR, Alves dos Santos I, 2020. Bee 
pollinator functional responses and functional effects in restored 
tropical forests. Ecol. Appl., 30(3) : e02054. 

Mouse Genome Sequencing Consortium, 2009. Lineage-specific biology 
revealed by a finished genome assembly of the mouse. PLoS Biol., 7 
(5) : e1000112. 

Nakano K, Shiroma A, Shimoji M, Tamotsu H, Ashimine N, Ohki S, 
Shinzato M, Minami M, Nakanishi T, Teruya K, Satou K, Hirano 
T, 2017. Advantages of genome sequencing by long-read sequencer 
using SMRT technology in medical area. Hum. Cell, 30(3) : 149 — 
161. 

Pendleton M, Sebra R, Pang AW, Ummat A, Franzen O, Rausch T, 
Stütz AM, Stedman W, Anantharaman T, Hastie A, Dai H, Fritz 
MH, Cao H, Cohain A, Deikus G, Durrett RE, Blanchard SC, 
Altman R, Chin CS, Guo Y, Paxinos EE, Korbel JO, Darnell RB, 
McCombie WR9, Kwok PY, Mason CE, Schadt EE, Bashir A, 


2015. Assembly and diploid architecture of an individual human 


genome via single-molecule technologies. Nat. Methods, 12 (8): 
780 —786. 

Qin X, Evans JD, Aronstein KA, Murray KD, Weinstock GM, 2006. 
Genome sequences of the honey bee pathogens Paenibacillus larvae 
and Ascosphaera apis. Insect Mol. Biol., 15(5) : 715 — 718. 

Shang YF, Xiao GH, Zheng P, Cen K, Zhan S, Wang CS, 2016. 
Divergent and convergent evolution of fungal pathogenicity. Genome 
Biol. Evol., 8(5) : 1374 — 1387. 

Shields EJ, Sheng L, Weiner AK, Garcia BA, Bonasio R, 2018. High- 
quality genome assemblies reveal long non-coding RNAs expressed in 
ant brains. Cell Rep., 23(10) : 3078 —3090. 

Solares EA, Chakraborty M, Miller DE2, Kalsow S, Hall K, Perera AG, 
Emerson JJ, Hawley RS, 2018. Rapid low-cost assembly of the 
Drosophila melanogaster reference genome using low-coverage, long- 
read sequencing. G3, 8(10) : 3143 - 3154. 

Tauber JP, Einspanier R, Evans JD, Mcmahon DP, 2019. Co- 
incubation of dsRNA reduces proportion of viable spores of 
Ascosphaera apis, a honey bee fungal pathogen. J. Apic. Res., 59 
(5): 791 — 799. 

Thiel T, Michalek W, Varshney RK, Graner A, 2003. Exploiting EST 
databases for the development and characterization of gene-derived 
SSR-markers in barley ( Hordeum vulgare L. ). Theor. Appl. Genet., 
106(3) : 411 - 422. 

Xiong CL, Zhang L, Fu ZM, Wang HQ, Hou ZX, Tong XY, Li WD, 
Zheng YZ, Chen DF, Guo R, 2017. Large-scale development of 
SSR primers for Apis cerana cerana larvae based on its RNA-seq 
datasets. J. Environ. Entomol., 39(1) : 68 — 74. [能 染 玲 , 张 囊 ， 
付 中 民 , 王 鸿 权 , REA, EIT, FUR, MRA, KAW, 

SER, 2017. 基于 RNA-seq 数据 大 规模 开发 中 华 蜜蜂 幼虫 的 

SSR 分 子 标记 . 环境 昆虫 学 报 , 39(1) : 68 -74] 





p 








(责任 编辑 : 马 丽 萍 ) 


